# ПРОЦЕССОРЫ ЭЛБРУС НА АРХИТЕКТУРЕ ЭЛЬБРУС 2000 Е2К: ОСОБЕННОСТИ И ПРОИЗВОДИТЕЛЬНОСТЬ

Докладчик: Садовой Григорий Владимирович Р3207

#### Краткая история

- 1978 год: Эльбрус 1 15 млн флопс, 64 M RAM опирался на опыт создания БЭСМ-6.
- 1980 год: Эльбрус-2 8 процессоров, 125 млн флопс, 144M RAM.
- 1985 год: Начата разработка Эльбрус-3. Серийное производство провалилось из-за распада СССР.
- 2014 год: Первый процессор серии Э2К.

# Семейство Эльбрус Е2К

- 16 ядер
- 2ГГЦ
- 1500 Гфлопс
- До 50 команд на такт
- Шина 200 Гбайт/с



# Закон Мура



#### **VLIM**

- VLIM (Very Long Instruction Word) архитектура процессоров характеризующаяся возможностью объединения нескольких простых команд в так называемую связку. Входящие в нее команды должны быть независимы друг от друга и выполняться параллельно. Таким образом, из нескольких машинных команд компилятор формирует одно очень длинное командное слово.
- Идея VLIM базируется на том, что задача эффективного планирования параллельного выполнения команд возлагается на сложный компилятор.

### VLIM в Эльбрусе

Под "широкой командой" в архитектуре Эльбрус понимается набор элементарных операций, которые могут быть запущены на исполнение в одном такте.

#### В ЦК «Эльбрус» доступны:

- 6 арифметико-логических устройств (АЛУ), исполняющих операции:
  - целочисленные (Int)
  - вещественные (FP)
  - сравнения (Стр)
  - чтения из памяти (LD)
  - записи в память (ST)
  - операции с упакованными векторами (Vect)
  - деления и квадратного корня (Div/Sqrt)
- 1 устройство для операций передачи управления (СТ)
- 3 устройства для операций над предикатами (PL)
- 6 квалифицирующих предикатов (QP)
- 4 устройства для команд асинхронного чтения данных по регулярным адресам в цикле (АРВ)
- 4 литерала размером 32 бита для хранения константных значений (LIT)

#### Предикаты



**Логический предикат (ЛП)** — результат операции сравнения двух чисел (целых или вещественных), выполняемой в арифметикологических каналах. Он представляется двухразрядным составным значением, содержащим: Тег (0 — обычный предикат, 1 — диагностический предикат), Булево значение (0 — false, 1 — true)

Устройство логических предикатов (УЛП или PLU - Predicate Logic Unit) разработано с целью:

- 1. Разгрузки арифметических устройств
- 2. Выполнения операций над малоформатными значениями предикатов
- з. Управления действиями арифметико-логического канала

#### Функции УЛП:

- Синтез предикатов из предикатного файла
- Вычисление вторичных предикатов по двум первичным
- Задание предикатного (условного) выполнения операций
- Запись предикатов в предикатный файл (32 2-битных регистра)

#### Регистровые окна



#### Подкачка данных для цикла

- Процессоры Э2К способны выполнять циклы с наложением итерации одна или несколько итерации цикла могут начать исполнение до того, как предыдущая итерация завершилась.
- Для этого в регистровом и предикатном файле может быть организован конвейер регистров. Несмотря на то что код всех итераций будет обращаться к одному и тому же регистру, процессор будет выделять каждой новой запущенной итерации новый регистр из конвейера.

#### Стеки

В архитектуре Эльбруса различают следующие разновидости стеков:

- Стек процедур (Procedure Stack)
- Стек пользователя (User Stack)
- Стек связующие информации (Procedure Chain Stack)



#### Ядро



#### Пример кода

```
void a(int n, int a, int b, int c, int *x) {
    for(int i = 0; i < n; i++) {
        x[i] = (x[i] + a) * b + c;
    }
}</pre>
```

```
a(int, int, int, int, int*):
                                                                                                                                                  adds,5,sm
                                                                                                                                                               %r0, %b[16], %b[18]
          setwd wsz = 0x6, nfx = 0x1, dbl = 0x1
                                                                             ldw, 0, sm
                                                                                            %dr4, %db[11], %g19
          return
                        %ctpr3
                                                                              addd,1,sm
                                                                                           %db[11], f16s, lts0lo 0x18, %dg21
                                                                                                                                                 loop_mode
                                                                             ldw, 2, sm
                                                                                            %dr6, %db[11], %g20
                                                                                                                                                 alc alcf=1, alct=1
                                                                              addd,3,sm
                                                                                           %db[11], _f16s,_lts0hi 0x20, %dg22
                                                                                                                                                       abnf=1, abnt=1
                                                                             addd,4,sm
          cmplsb,0
                        0x0, %r0, %pred0
                                                                                           %db[11], f16s, lts1lo 0x28, %dg23
                                                                                                                                                 ct %ctpr1 ? %NOT_LOOP_END
                                                                             addd,5,sm
                                                                                           %db[11], f16s, lts1hi 0x30, %db[21]
                                                                                                                                                 staaw,2
                                                                                                                                                               %b[20], %aad0[ %aasti1 ]
                                                                                                                                                 addd,4,sm
                                                                                                                                                               0x8, %db[19], %db[17]
          merges, 0, sm 0x1, %r0, %r9, %pred0
                                                                                                                                                 staaw,5
                                                                                                                                                               %b[18], %aad0[ %aasti1 + _f32s,_lts0 0
          addd,1
                        0x0, 0x0, %dr10 ? %pred0
                                                                             ldw, 0, sm
                                                                                            %dr6, %dg18, %g18
                                                                                                                                                 incr,5
                                                                                                                                                               %aaincr1
                                                                                            %dg16, _f64,_lts0 0xffffffff, %dg26
                                                                              andd,1
                                                                             ldw, 2, sm
                                                                                           %dr4, %dg17, %g24
                       %r9, 0x1, %r8
                                                                             ldw,3,sm
                                                                                           %dr6, %dg17, %g17
                                                                                                                                                 setwd wsz = 0x6, nfx = 0x1, dbl = 0x1
          shrs, 8, sm
                                                                             addd,4,sm
                                                                                           0x8, %db[21], %db[19]
                                                                                                                                                               %dr10, 8x2, %dr0
                                                                                                                                                 shld,0,sm
                                                                                           %dr4, %dg18, %g25
                                                                                                                                                 shls,1
                                                                                                                                                               %r8, 0x1, %r6
                                                                             ldw,5,sm
          ct %ctpr3 ? ~%pred0
          cmpesb,0,sm %r8, 0x0, %pred1
          cmplsb,1,sm 0x0, %r8, %pred2
                                                                             rwd, 0 %dg16, %lsr
                                                                                                                                                               %r11, %aabf0
                                                                                                                                                 aaurw, 2
                                                                                            %dg26, 0x1, %dr10
                                                                             shld,1
                                                                                                                                       .L82:
                                                                             ldw, 2, sm
                                                                                           %dr4, %dg21, %b[7]
          nop 2
                                                                             ldw,3,sm
                                                                                           %dr6, %dg21, %b[8]
                                                                                                                                                 nop 2
          return
                        %ctpr3
                                                                             ldw,5,sm
                                                                                           %dr4, %dg22, %b[5]
          muls,0,sm
                        %r1, %r2, %r7
                                                                                                                                                 ldw,0,sm
                                                                                                                                                               %dr4, %dr0, %g16
          merges,1,sm 0x1, %r8, %r0, %pred2
                                                                                                                                                 cmpesb,1
                                                                                                                                                               %r6, %r9, %pred0
                                                                             rwd, 8 %dr0, %lsr1
          pass %pred0, @p0
          pass %pred1, @p1
                                                                              adds,1
                                                                                            %r3, %r7, %r0
                                                                                                                                                     %ctpr3 ? %pred0
          landp @p0, @p1, @p4
                                                                             ldw, 2, sm
                                                                                           %dr6, %dg22, %b[6]
          pass @p4, %pred0
                                                                             ldw,3,sm
                                                                                           %dr4, %dg23, %b[3]
                                                                             ldw,5,sm
                                                                                           %dr6, %dg23, %b[4]
                                                                                                                                               nop
          ibranch
                        .L416 ? %pred0
                                                                                                                                                 adds,0,sm
                                                                                                                                                               %g16, %r1, %g16
                                                                             ldw, 8, sm
                                                                                            %dr6, %db[21], %b[2]
          setwd wsz = 0x11, nfx = 0x1, dbl = 0x1
                                                                                                                                                 nop 5
          setbn rsz = 0xa, rbs = 0x6, rcur = 0x0
                                                                              muls,0,sm
                                                                                            %g19, %r2, %b[15]
                                                                                                                                                 muls,8,sm
                                                                                                                                                               %g16, %r2, %g16
          disp %ctpr1, .L20
                                                                              muls,1,sm
                                                                                           %g20, %r2, %b[16]
          addd,8
                        %dr4, 0x4, %dr6
          addd,1
                        0x0, f64, lts1 0x40ff2000000000, %dg16
                                                                                                                                                 adds, 8, sm
                                                                                                                                                               %g16, %r3, %g16
          addd,2
                        0x2, 0x0, %dg17
                                                                              nop 4
                       0x0, 0x0, %r11
          adds,3
                                                                             muls,0,sm
                                                                                           %g24, %r2, %b[13]
                                                                             muls,1,sm
                                                                                                                                                 ct %ctpr3 ? ~%pred0
                                                                                           %g17, %r2, %b[14]
                                                                             muls,3,sm
                                                                                           %g25, %r2, %b[11]
                                                                                                                                                 stw, 2 %dr4, %dr0, %g16 ? ~%pred0
          return
                        %ctpr3
                                                                              muls,4,sm
                                                                                           %g18, %r2, %b[12]
          addd, 0, sm
                        0x0, 0x0, %db[11]
                                                                                                                                       .L416:
          insfd,1
                        %dg16, f32s, lts0 0x8880, %dr0, %dg16
                                                                    .L20:
          aaurwd,2
                        %dr10, %aasti1
                                                                                                                                                 ibranch
                                                                                                                                                                .L82
          aaurwd,5
                        %dr4, %aad0
                                                                             loop mode
                                                                                                                                                               %dr10, 0x2, %dr0
                                                                                                                                                 shld,0,sm
                                                                              muls,0,sm
                                                                                           %b[7], %r2, %b[9]
                                                                                                                                                 shls,1
                                                                                                                                                               %r8, 0x1, %r6
                                                                              muls,1,sm
                                                                                           %b[8], %r2, %b[18]
                                                                             ldw,2,sm
          addd, 8, sm
                        %db[11], _f16s, _lts0lo 0x10, %dg18
                                                                                           %dr4, %db[21], %b[1]
                                                                                                                                               elbrus optimizing compiler v1.28.89 Nov 28 2023 = 0x0
          addd,1,sm
                        0x8, %db[11], %dg17
                                                                             ldw,3,sm
                                                                                           %dr6, %db[19], %b[8]
```

%r0, %b[15], %b[28]

adds,4,sm

aaurwd, 2

%dg17, %aaincr1

# Бинарный транслятор, RTC, lintel







## Сравнения и тесты

#### Intel I7 2600 вышел в 2011 Эльбрус 8С вышел в 2016

| Slower than Core i7 2600 [n times] running with same frequency |               |     |            |     |        |      |  |  |  |
|----------------------------------------------------------------|---------------|-----|------------|-----|--------|------|--|--|--|
| Сри                                                            | Java          | C#  | JavaScript | Php | Python | Lua  |  |  |  |
|                                                                | Single-thread |     |            |     |        |      |  |  |  |
| Elbrus 2C+500                                                  |               |     |            | 2.3 | 4.5    | 2.4  |  |  |  |
| Elbrus 1C+985                                                  | 3.5           | 4.5 | 5          | 2.3 | 3.6    | 1.75 |  |  |  |
| Elbrus 4C 750                                                  | 2.5           | 4.2 | 2.75       | 1.5 | 3.5    | 2    |  |  |  |
| Elbrus 8C 1300                                                 | 2             | 3   | 2.5        | 1.5 | 3.5    | 2.3  |  |  |  |
| Elbrus 8C 1300 RTC                                             |               | 1.3 |            | 2.5 | 2.6    |      |  |  |  |
| Elbrus 8CB 1550                                                | 2             | 3   | 2.25       | 1.5 | 3.5    | 2.2  |  |  |  |
| Elbrus 8CB 1550 RTC                                            |               | 1.2 |            | 2.7 | 2.5    |      |  |  |  |
| Intel Core i7-2600                                             | 1             | 1   | 1          | 1   | 1      | 1    |  |  |  |
|                                                                | Multi-thread  |     |            |     |        |      |  |  |  |
| Elbrus 2C+500                                                  |               |     |            |     | 8.5    |      |  |  |  |
| Elbrus 1C+985                                                  | 5             | 7   |            |     | 7.4    |      |  |  |  |
| Elbrus 4C 750                                                  | 2.75          | 3   |            |     | 3      |      |  |  |  |
| Elbrus 8C 1300                                                 | 1.15          | 1.5 |            |     | 1.5    |      |  |  |  |
| Elbrus 8C 1300 RTC                                             |               | 0.8 |            |     | 2.8    |      |  |  |  |
| Elbrus 8CB 1550                                                | 1.15          | 1.2 |            |     | 1.35   |      |  |  |  |
| Elbrus 8CB 1550 RTC                                            |               | 0.8 |            |     | 2.3    |      |  |  |  |
|                                                                | 1             | 1   | 1          | 1   | 1      | 1    |  |  |  |

| Slower than Core i7 2600 (3.4 GHz) [n times] |               |      |            |     |        |     |  |  |  |
|----------------------------------------------|---------------|------|------------|-----|--------|-----|--|--|--|
| Сри                                          | Java          | C#   | JavaScript | Php | Python | Lua |  |  |  |
|                                              | Single-thread |      |            |     |        |     |  |  |  |
| Elbrus 2C+500                                |               |      |            | 16  | 30     | 16  |  |  |  |
| Elbrus 1C+985                                | 11            | 15.5 | 16         | 8   | 12.5   | 6   |  |  |  |
| Elbrus 4C 750                                | 10            | 19   | 12.5       | 5   | 15.5   | 10  |  |  |  |
| Elbrus 8C 1300                               | 5.5           | 10.5 | 6.5        | 3   | 9      | 6   |  |  |  |
| Elbrus 8C 1300 RTC                           |               | 3.5  |            | 7   | 7.5    |     |  |  |  |
| Elbrus 8CB 1550                              | 4.5           | 8    | 5          | 2.5 | 7.8    | 5   |  |  |  |
| Elbrus 8CB 1550 RTC                          |               | 3    |            | 6   | 5.6    |     |  |  |  |
| Intel Core i7-2600                           | 1             | 1    | 1          | 1   | 1      | 1   |  |  |  |
|                                              | Multi-thread  |      |            |     |        |     |  |  |  |
| Elbrus 2C+500                                |               |      |            |     | 58     |     |  |  |  |
| Elbrus 1C+985                                | 18            | 24   |            |     | 25     |     |  |  |  |
| Elbrus 4C 750                                | 12.5          | 12.5 |            |     | 13.5   |     |  |  |  |
| Elbrus 8C 1300                               | 3             | 4.5  |            |     | 4.2    |     |  |  |  |
| Elbrus 8C 1300 RTC                           |               | 2    |            |     |        |     |  |  |  |
| Elbrus 8CB 1550                              | 2.5           | 4    |            |     | 3.8    |     |  |  |  |
| Elta (Q.55 RTC                               |               | 1.5  |            |     | 5.1    |     |  |  |  |
| Intel Core 17-2600                           | 1             | 1    | 1          | 1   | 1      | 1,  |  |  |  |

#### Современное использование

• Сооснователь МЦСТ Борис Бабаян и его сын Евгений работают над созданием процессора на новой архитектуре «Эльбрус-Б». Чип планируют выпустить к 2027 году. По словам разработчиков, новая архитектура будет быстрее иностранных аналогов в 30–200 раз.



